iT邦幫忙

2025 iThome 鐵人賽

DAY 21
0
AI & Data

AI初學者入門系列 第 21

Day21 MoE(Mixture of Experts)

  • 分享至 

  • xImage
  •  

什麼是Mixture of Experts (MoE, 專家混合模型) ?

一種神經網路架構設計理念,目標是讓模型 既能擴大參數規模,又能降低計算成本。

基本的特色:

  • 專家子模型 (Experts):每個專家都擅長處理不同類型的輸入。
  • 門控網路 (Gating Network):依照輸入的特徵,決定哪些專家需要被激活並使用。
  • 稀疏啟用 (Sparse Activation):在數百個專家中,實際運算時只挑選少數(例如 2 個)參與。

實際案例(特別適合大型語言模型、推薦系統、多模態 AI):

Google 的 Switch Transformer 採用 MoE 設計,它擁有上兆參數,但每次推理僅需啟動少數專家,實際的計算需求比傳統全量參數模型小得多。隨後推出的 GLaM 也展示了同樣的效益:在達到與 GPT-3 相近甚至更好的表現時,能效卻大幅提升。

缺點:

  1. 負載平衡: 如果門控網路過於偏好某些專家,這些專家就會被過度使用,而其他專家則閒置不用,導致訓練資源浪費,甚至影響模型泛化能力。研究者因此引入額外的「平衡損失函數」,強迫門控網路更平均地分配任務。
  2. 分散式訓練環境: 由於專家的輸入與輸出需要在不同運算節點間交換,通信成本成為瓶頸。

上一篇
Day20向量壓縮與 ANN 搜尋
下一篇
Day22 GraphRAG
系列文
AI初學者入門30
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言